浅析多元回归中的“三差”:离差(Deviation)、残差(Residual)与误差(Error) 您所在的位置:网站首页 total variation统计学 浅析多元回归中的“三差”:离差(Deviation)、残差(Residual)与误差(Error)

浅析多元回归中的“三差”:离差(Deviation)、残差(Residual)与误差(Error)

2024-01-20 10:11| 来源: 网络整理| 查看: 265

文章目录 1. 综述2. 误差(Error)——模型的总体性质3. 离差(Deviation)——因变量真实值与平均值之间的差4. 残差(Residual)——因变量真实值与模型拟合值之间的差5. 三者之间的关系5.1 残差 V.S. 离差5.2 残差 V.S. 误差5.3 离差 V.S. 误差写在最后

1. 综述

有不少小伙伴在初学多元回归模型的时候,会被一些术语搞得晕头转向,其中就包括经常出现的 离差(Deviation)、残差(Residual)与误差(Error)。这三个术语看起来完全就是一回事儿啊!! 其实不然,这三个概念虽然有一定的关联性,但其描述的本质却完全不同。现在,就让我们就来简单聊聊这三者之间的区别吧!

2. 误差(Error)——模型的总体性质

误差(Error) 的英文本意就是“错误”。我们在日常生活中总是会犯这样或那样的错误,模型其实就是简化了的现实世界,其也必然会包含错误。而在多元回归模型中,我们在建立模型的时候就已经加入了这个错误:误差项。比如,在多元回归模型: Y = β 0 + ∑ i = 1 p X i β i + ϵ Y = \beta_0 + \sum_{i=1}^{p} X_i \beta_i + \epsilon Y=β0​+i=1∑p​Xi​βi​+ϵ

中的误差其实就是误差项—— ε。

因此,我们所谓的“误差”本质上是一个随机变量——它是衡量模型总体性质的一个指标,是总体性质的体现,而与样本无关。

正如唐代著名诗人—鲁迅(Shuren Zhou) 在《吾未曾曰过》中所言:“不论抽样与否,误差都在那里,不增不减、不舍不弃。”

3. 离差(Deviation)——因变量真实值与平均值之间的差

离差(Deviation) 实际上讲的是一种个体样本偏离总样本平均的程度,严谨的说法是实际观察值与其平均值的偏离程度。定义式为:

d i = y i − y ˉ d_i = y_i - \bar{y} di​=yi​−yˉ​

其中: y ˉ = 1 N ∑ i = 1 N y i \bar{y} = \frac{1}{N} \sum _{i=1}^{N} y_i yˉ​=N1​i=1∑N​yi​ 样本散点与离差示意图 图1 样本散点图与样本均值线(图中红线为样本均值线,黑点为样本真实值。真实值与样本均值线的差即为离差)

需要特别注意的是,离差只与样本有关,而与模型总体无关——它只是衡量样本因变量与其平均值的差。

就像当代著名散文家—沃兹几所言:“不论模型是什么,离差都在那里。如果你愿化作样本,那么离差就是你与那样本海洋之中灯塔的距离。”

4. 残差(Residual)——因变量真实值与模型拟合值之间的差

残差(Residual)这个“残”字其实已经把这个意思说的明白了。在新华字典中,“残”的意思就是“剩下的”。让我们想想,在多元回归拟合过程中,什么东西是“剩下”的呢?对了!就是在使用样本估计总体后,因变量真值在被模型拟合完后还剩下的、没有放入模型的那一部分差值。用百度官方的说法,就是实际观察值与估计值(拟合值)之间的差。定义式为: e i = y i − y ^ i e_i = y_i - \hat{y}_i ei​=yi​−y^​i​

让我们在拟合图中,则可以表示为: 残差示意图 图2 样本散点图与拟合线(图中红线为拟合曲线,黑点为样本真实值。真实值与样本拟合值的差即为残差。图片来源:百度图片)

5. 三者之间的关系 5.1 残差 V.S. 离差

让我们把残差与离差放在一起,如图3所示: 在这里插入图片描述 图3 样本(样本均值、拟合曲线与真实值已在图中标出。容易看出,总离差可分解为残差与拟合值两部分。图片来源:百度图片)

从图3可以看出,离差被分解为了残差与回归差两部分。因此,残差可以视为离差的一个来源。

注:这样的理解可以引出著名的离差平方和分解定理。

5.2 残差 V.S. 误差

让我们比较误差与残差的定义式: ϵ i = Y i − f ( X i ) \epsilon_i = Y_i- f(X_i) ϵi​=Yi​−f(Xi​) e i = y i − f ^ ( x i ) e_i = y_i- \hat{f}(x_i) ei​=yi​−f^​(xi​) 从定义式来看,二者长得十分相似:都是因变量 Y 与模型 f (X) 的偏差。二者的不同之处是:误差描述了总体的性质,而残差描述了样本点的性质。因此,残差 e^i 其实是误差 εi 的一个“抽样”,或者说是一个估计值。

5.3 离差 V.S. 误差

离差貌似跟误差没有什么显然的联系XD。

写在最后

欢迎感兴趣的小伙伴来跟作者一起挑刺儿~ 包括但不限于语言上的、排版上的和内容上的不足和疏漏~ 一起进步呀! 有任何问题,欢迎在本文下方留言,或者将问题发送至勘误邮箱: [email protected] 谢谢大家!



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有